Uma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais

نویسندگان

  • Karine V. Magalhães
  • Alberto H. F. Laender
  • Altigran Soares da Silva
چکیده

This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schema and populating the corresponding database accordinly. We also show how to retrieve such data by automatically transforming high-level query specifications (query patterns) into SQL queries that are executed over the relational database. Results of experiments carried out to evaluate our approach are also described. 1 Introdução A Internet, em especial a World Wide Web (Web), tornou-se um vasto repositório de dados. Entretanto, os dados disponı́veis na Web são, em geral, dif ́ıceis de serem efetivamente utilizados pela maioria dos usuários da Internet. A dificuldade em se utilizar esses dados deve-se ao fato de que eles não podem ser adequadamente consultados e manipulados através de técnicas tradicionais de bancos de dados. Essa limitação deve-se à maneira como os dados da Web estão estruturados. Ao contrário de como ocorre em bancos de dados tradicionais, cada fonte de dados apresenta suas próprias caracterı́sticas em termos de meios de acesso e de estruturação dos dados nela contidos. A estrutura desses dados é irregular e apresenta-se implicitamente definida, podendo, em geral, ser facilmente reconhecida pelo usuário. Como exemplo, podemos citar dados contidos em páginas de sites de livrarias eletrônicas, referências bibliográficas, catálogos eletrônicos, sites de previsão de tempo e outros. Dados deste tipo são denominados semi-estruturados [1]. Uma possı́vel solução para o problema de manipulação de dados semi-estruturados é extraı́-los de páginas da Web e armazená-los em um banco de dados relacional para posterior manipulação. Neste sentido, diversas abordagens têm sido propostas para extração e estruturação dos dados encontrados na Web. Entre elas, podemos citar linguagens para geração de wrappers [3, 8, 15], processamento de linguagem natural [7, 13], geração de wrappers baseados em indução [4, 16, 19, 26], ontologia [10] e modelagem de documentos [2, 28], além daquelas que exploram a estrutura dos documentos HTML para geração de regras de extração [22, 30]. A abordagem DEByE (Data Extraction By Example) [20, 28], para extração de dados semiestruturados da Web, difere-se de outras abordagens devido ao fato de o processo de extração ser totalmente guiado por exemplos fornecidos pelo usuário. O usuário especifica alguns objetos de exemplo derivados de uma página de amostra e esses objetos são usados para extrair automaticamente novos objetos de páginas que apresentam estrutura similar. A ferramenta DEByE [20, 21, 28] foi desenvolvida para suportar o processo de especificação de exemplos e a extração dos dados. A interface gráfica da DEByE auxilia o usuário a descrever a estrutura implı́cita dos objetos. A partir dos exemplos fornecidos pelo usuário, são gerados padrões de extração que alimentam o processo de extração. O resultado de um processo de extração da ferramenta DEByE é um arquivo-texto, contendo os objetos extraı́dos de páginas da Web, denominado DTOR (DEByE Textual Object Repository). Em um DTOR, os objetos estão organizados segundo um formato baseado na notação XML [33] chamado DTORF (DEByE Textual Object Repository Format). O DTORF constitui uma implementação XML do modelo de objetos DEByE-OM (DEByE Object Model) [20], modelo adotado pela abordagem DEByE para representação de dados semi-estruturados. A principal vantagem de se ter uma implementação XML do modelo DEByE-OM é que os objetos representados textualmente podem ser processados através de aplicações e bibliotecaspadrão existentes para diversas plataformas e ambientes de programação. Entretanto, o formato DTORF utiliza-se de um conjunto limitado de tags especı́ficas para representação da estrutura dos objetos extraı́dos da Web. Desta forma, as linguagens de consulta para documentos XML génericos tornam-se difı́ceis de serem aplicadas a um arquivo no formato DTORF devido a diferenças na forma como elementos e atributos são utilizados para representar dados nesses repositórios textuais. Além disso, em muitas situações, a manipulação de dados diretamente em um formato textual pode se tornar difı́cil e pouco eficiente. Este artigo apresenta uma abordagem para armazenamento e manipulação de dados semiestruturados extraı́dos de páginas da Web e organizados de acordo com o modelo DEByE-OM. A abordagem consiste na utilização de um sistema gerenciador de banco de dados (SGBD) relacional para armazenamento e consulta desses dados. A principal justificativa é que um SGBD relacional provê um meio seguro e robusto para o gerenciamento de grandes volumes de dados. Os dados são estruturados de tal forma que é possı́vel realizar sobre eles operações tradicionais de bancos de dados. Além disso, aproveitando-se da semântica adicionada pela estruturação dos objetos, é possı́vel integrar mais facilmente objetos oriundos de uma fonte de dados semiestruturados com objetos de outras fontes de dados estruturados ou semi-estruturados. Este artigo está organizado da seguinte maneira. A Seção 2 descreve trabalhos relacionados. A Seção 3 apresenta os conceitos do modelo DEByE-OM. A Seção 4 apresenta a estratégia adotada para armazenamento de dados semi-estruturados em um banco de dados relacional. Na Seção 5, descrevemos como repositórios textuais (DTORs) são reconstruı́dos a partir do repositório relacional. A Seção 6 apresenta resultados de experimentos realizados para avaliar a abordagem proposta. Finalmente, a Seção 7 conclui o artigo. 2 Trabalhos Relacionados Diversas abordagens foram propostas para armazenamento de dados semi-estruturados permitindo posterior consulta sobre seu conteúdo. Uma primeira alternativa consiste na criação de sistemas especı́ficos para tratamento de dados semi-estruturados considerando suas próprias caracterı́sticas. Exemplos de sistemas deste tipo são Lore [25], Tsimmis [5] e Strudel [11], e sistemas comerciais como eXceleron [27] e Tamino [31]. Em geral, esses sistemas armazenam o esquema juntamente com os dados. A prática de armazenamento dos dados juntamente com o esquema provê a flexibilidade necessária aos dados semi-estruturados, portanto implica em maior espaço de armazenamento e custo adicional de processamento devido ao fato do esquema estar replicado a cada item de dados armazenado. XML vem tornando-se o padrão dominante para representação de dados na Web devido à sua simplicidade (se comparada a SGML) e seu poder de expressão (se comparada a HTML). Diversos modelos e linguagens de consulta para dados semi-estruturados têm sido propostos para explorar o poder da XML. Diferentes abordagens têm sido propostas para armazenamento e manipulação de dados XML utilizando bancos de dados relacionais [9, 12, 14, 17, 32]. Com relação a essas abordagens, podemos identificar três alternativas básicas [17]. A primeira alternativa é muito simples e consiste em armazenar o documento XML inteiro como um único atributo do banco de dados. A segunda alternativa consiste em representar documentos XML como grafos e então criar um esquema relacional que permite o armazenamento das estruturas genéricas de um grafo como atributos e valores [12, 14]. A terceira alternativa consiste em mapear os diferentes tipos de elemento encontrados nos documentos XML para esquemas relacionais correpondentes [9, 17, 32]. Apenas esta última alternativa permite explorar as caracterı́sticas dos SGBDs relacionais como mecanismos de consulta, otimização, controle de concorrência, etc. Por esta razão, a nossa abordagem explora a idéia presente nesta alternativa e, no contexto DEByE, tem como objetivo a representação dos tipos de objetos considerados pelo modelo DEByE-OM em termos de esquemas de relação. Em [9], os autores apresentam uma técnica para armazenamento de dados semi-estruturados em um banco de dados relacional que está baseada em um mapeamento do modelo OEM (Object Exchange Model) para o modelo relacional. O mapeamento é expresso em uma linguagem de consulta declarativa denominada STORED (Semistructured TO Relational Data) e é gerado automaticamente utilizando-se técnicas de data-mining. Desta forma, dados XML são automaticamente convertidos em dados relacionais. O mapeamento é feito sem perdas, isto é, parte dos dados que não é possı́vel de ser armazenada no banco de dados relacional é armazenada em um grafo de overflow. Diversos fornecedores de SGBDs relacionais têm implementado extensões para possibilitar a transferência de dados entre documentos XML e tabelas definidas pelo usuário. Alguns deles possibilitam o armazenamento de documentos XML como um único atributo de uma tabela do banco de dados e a manipulação desses documentos através de extensões que permitem consultas baseadas em processamento de texto. Exemplos desses SGBDs são o Oracle 8i, DB2 e Informix. Existem também propostas de se utilizar SGBDs orientado a objetos para armazenamento de dados semi-estruturados. Esta abordagem é apresentada em [6] e implementada em sistemas comerciais como O . Mais recentemente, têm sido desenvolvidos SGBDs cujo modelo subjacente é semi-estruturado [25]. 3 Conceitos do Modelo DEByE-OM Esta seção apresenta os conceitos do modelo de objetos DEByE-OM (DEByE Object Model) [20] utilizados para descrever a estrutura dos dados extraı́dos da Web. O modelo DEByEOM baseia-se na suposição de que certa categoria de páginas da Web, ditas ricas em dados e de abrangência semântica especı́fica [10], podem ser vistas como coleções de objetos complexos que possuem uma estrutura implı́cita. Esses objetos, por sua vez, podem ser compostos por outros objetos formando uma estrutura hierárquica de objetos. Por exemplo, no trecho da página do site da livraria Murder by the Book (http://www.neosoft.com/ mrdrbybk) apresentado na Figura 1, podemos identificar porções distintas contendo dados sobre livros de quatro autores. Cada uma dessas porções de dados pode ser considerada um objeto implı́cito. Para cada um desses objetos, podemos identificar um nome de autor associado a uma lista de livros. Para os livros de uma lista, encontramos informação adicional como tı́tulos e preços. Desta maneira, existe uma estrutura inerente a cada objeto presente na página da Figura 1. Os objetos implı́citos nesta figura possuem uma estrutura de vários nı́veis e, devido a isto, são chamados objetos complexos. A Figura 2 representa a estrutura hierárquica inerente ao objeto correspondente à autora Agatha Christie. Figura 1: Extrato de uma página do site da livraria Murder by the Book.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Mapeamento de Relacionamentos em Rede Armazenados em Bancos de Dados Espaciais para Documentos GML

Resumo. Dados representados em documentos GML são utilizados em diversas aplicações GIS e na Web visando principalmente o armazenamento, a manipulação e a troca de informações geográficas. Entretanto, uma grande parte das informações geográficas estão armazenadas em bancos de dados espaciais. Este trabalho apresenta uma metodologia para mapear dados geográficos, estruturados usando relacionamen...

متن کامل

Projeto de banco de dados de simulações numéricas

Resumo. Com a rápida evolução dos sistemas computacionais, simulações numéricas baseadas em modelagem computacional têm alcançado soluções cada vez mais realistas. Ainda assim, o processo de simulação é complexo, exigindo grande capacidade computacional e produzindo muitos arquivos auxiliares com os resultados das simulações. Uma grande quantidade de arquivos, como os produzidos durante o proce...

متن کامل

OntoSAIA: Um Ambiente Baseado em Ontologias para Recuperação e Anotação Semi-Automática de Imagens

This article proposes the use of image content, keywords and ontologies to improve the image annotation and retrieval processes through the enhancement of the user’s knowledge of an image database. It proposes an architecture of a flexible system capable of dealing with multiple ontologies and multiple image content descriptors to help these tasks. The validation of the idea is being done throu...

متن کامل

Uma Análise Comparativa entre Sistemas Gerenciadores de Bancos de Dados NoSQL no contexto de Internet das Coisas

The search for improvement on applications performance is constant, especially in environments where data is analyzed in real time, as in Internet of Things (IoT). This paper aims to analyze the performance of nonrelational Database Management Systems (DBMS), inside the IoT context. To do so, three DBMS where analyzed with a benchmarkimg tool, using a real IoT dataset. The tests evaluated respo...

متن کامل

Um Repositório Chave-Valor com Controle de Localidade

The ever increasing volume of data produced nowadays presents challenges for storing and processing this data. Traditional database solutions are not efficient to face these challenges, especially with respect to scalability. One approach to provide scalability is the adoption of a layered architecture which combines a distributed storage system with a simple access interface. This paper presen...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2001